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一 种 基于 CUDA 的 截断 重 难 维特 比 译 码 算法 


展 杰 ， 王 志 旭 
(南京 邮电 大 学 通信 与 信息 工程 学 院 ， 南 京 210003) 


摘 要: 为 解决 信道 译 码 在 高 吞吐 量 通信 系统 中 的 瓶颈 问题 ， 通 过 对 CUDA 并 行 计算 的 了 解 和 对 维特 比 译 码 并 行 实现 
的 探索 ， 为 卷 积 码 提 出 了 一 种 基于 CUDA 的 截断 重 受 维特 比 译 码 器 。 算 法 通过 礁 断 式 的 子 网 格 图 相互 重 受 的 方式 ， 并 
行 执行 独立 的 正 向 度量 计算 和 回溯 过 程 。 实 验 结果 表明 ， 在 保证 了 译 码 算法 误 码 率 性 能 的 同时 ， 获 得 了 良好 的 吞吐 量 
提升 表现 ， 相 比 现 有 的 实现 方式 有 1.3~3.5 倍 的 提升 ， 降 低 了 硬件 开销 ， 能 够 有 效 运用 于 实际 高 吞吐 量 通信 系统 中 。 
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Truncated overlap scheduling viterbi decoding algorithm based on CUDA 


Li Chenjie, Wang Zhixu 
(College of Telecommunications & Information Engineering, Nanjing University of Posts & Telecommunications, Nanjing 


210003, China) 


Abstract: In order to solve the bottleneck problem of channel decoding in high-throughput communication systems, a truncated 
overlap Viterbi decoder based on CUDA is proposed for convolutional codes to solve it by analyzing of parallel processing based 
on Compute Unified Device Architecture (CUDA) and exploring of the parallel implementation of Viterbi decoding. The 
algorithm performs both independent forward metrics computing and back-track procedure in parallel through the overlapping 
of truncated sub-grid. The experiment shows that the method keeps low BER, achieves a performance improvement of 1.3-3.5 
times of the existing implementation and reduces hardware consumption. It can be effectively used in practical high-throughput 
communication systems. 
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台 对 LIE Turbo 译 码 器 进行 加 速 ， 在 不 损失 误 码 率 的 情况 下 有 

效 地 提高 了 吞吐 量 。 文 献 [9] 提 出 了 基于 “分 治 法 ”的 维特 比 译 人 码 
随 着 现代 移动 通信 技术 的 飞速 发 展 ， 人 们 对 通信 业务 速率 算法 ， 通 过 归并 的 方法 来 消除 子 网 格 之 间 的 相关 性 ， 这 种 思想 

的 需求 越 来 越 高 ， 给 信道 译 码 带 来 更 高 吞吐 量 的 解决 方案 成 为 非常 有 利于 维特 比 译 码 的 并 行 实现 。 

关注 的 重点 之 一 。 现 如 今 , 越 来 越 多 的 人 通过 将 FPGA、DSP、 本 文 提出 了 一 种 基于 CUDA 的 并 行 截断 重 登 维特 比 译 码 

GPU 等 平台 的 优势 与 译 码 器 特殊 的 结构 相 结合 来 达到 高 吞吐 算法 (Parallel-TOVDA )， 利 用 “分 治 法 ”的 思想 ， 结 合子 译 人 码 级 

量 的 目的 。 文 献 [1,2] 通 过 使 用 FPGA 设计 与 实现 了 一 种 高 通 贡 并 行 方法 和 CUDA 平台 合并 内 存 访问 模式 , 达到 了 高 吞吐 量 的 

的 维特 比 译 码 器 , 文献 [3] 基 于 DSP 实现 了 维特 比 译 码 算法 。 要 求 。 不 同 于 文献 [9]， 本 文 提 出 的 译 码 算法 的 网 格 图 可 以 划分 

过 比较 不 难 发 现 ，DSP 虽然 具有 和 良好 的 代码 灵活 性 ， 但 是 却 为 截断 式 的 子 网 格 图 ， 可 以 并 行 执行 独立 的 正 向 度量 计算 和 

要 依靠 高 主 频 来 解决 计算 能 力 ， 而 FPGA 提供 了 高 计算 能 力 ， 溯 过 程 。 与 文献 [9] 相 比 ， 本 文 提出 的 维特 比 译 码 器 实现 了 

但 是 开发 过 程 非常 复杂 , 硬件 成 本 也 非常 高 入 。 随 着 GPU 的 不 1.2~3.6 倍 的 性 能 加 速 和 良好 的 误 码 率 (BER) 性 能 

断 发 展 ， 它 在 拥有 超 高 运算 能 力 的 同时 还 具有 并 行 处 理 数据 的 有 

能 力 ， 这 给 高 符 叶 量 译 码 带 来 了 更 多 的 可 能 性 ,文献 [5-7] 都 使 。 | ”并行 维特 比 译 码 办 法 

用 GPU 平台 达到 了 各 自 A de 1.1 维特 比 译 码 算 法 

用 GPU 确实 是 一 个 实现 高 吞吐 量 译 码 器 的 有 效 途 径 。 文 献 [8] 付 特 比 译 码 过 程 可 以 表示 为 图 1 中 描述 的 网 格 图 。 在 网 格 

提出 了 使 用 子 译 码 级 并 行 和 共 En GPU 平 FP， 状 态 从 左 向 右 在 多 个 时 间 阶 段 内 反复 变化 ， 这 里 的 时 间 
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阶段 数 等 同 于 信息 比特 的 长 度 。 维 特 比 算法 的 过 程 可 以 分 为 正 ”此 必须 逐 级 执行 每 一 个 时 间 阶 段 。 所 笠 在 后 向 计算 过 程 中 ， 所 
向 过 程 和 回溯 过 程 两 个 方向 。 回 溯 的 目的 是 通过 网 格 图 来 搜寻 有 的 幸存 者 路 径 都 是 在 适当 的 回溯 长 度 之 后 就 可 以 合并 在 一 个 
最 大 似 然 路 径 。 路 径 度量 (PM) 用 来 测量 网 格 图 中 每 种 可 能 的 。” ”状态 ， 这 种 归并 的 过 程 称 之 为 回溯 阶段 。 最 后 ， 可 以 从 合并 的 
路 径 。 在 每 个 时 间 阶 段 , 计算 两 个 状态 之 间 的 分 支 度 量 (BM)， ”状态 回溯 ， 获 得 译 码 序列 ， 这 个 过 程 称 为 译 码 阶段 。 

然后 将 它们 相 加 来 更 新 PM。 然而 只 有 具有 最 小 PM 的 路 径 在 如 图 1 所 示 ， 维 特 比 译 码 算法 有 三 个 阶段 ， 分 别 是 正 向 计 
下 一 次 迭代 中 被 保留 并 传递 下 去 。 对 于 网 格 图 中 的 每 个 状态 ， 算 阶 段 ECP)、 回 渊 阶 段 CP) 和 译 码 阶段 (DP)。 可 以 发 现 ， 其 实 
执行 加 - 比 - 选 《ACS ) 操作 来 找到 所 有 路 径 的 幸存 比特 (SB)， ” 待 译 码 的 序列 中 的 任 一 部 分 都 进行 上 述 三 个 阶段 。 如 果 将 序列 


最 后 得 到 幸存 路 径 。 ACS 操作 可 以 如 下 表示 : 截断 成 n 块 , FCP 在 每 个 块 中 生成 子 网 格 图 , TP 得 到 了 归并 的 
let temp, = PM, 1,; + BM,,,,temp, = PM, 1 + BM s,s 状态 , 为 DP 提供 起 始 状 态 , 最 后 DP 输出 译 码 比特 。 图 2 介绍 
$=(0,1,...,2*7), j = s%2*™ 了 该 算法 的 两 种 执行 方式 : 流水 线 式 和 并 行 同步 式 。 文献 [10] 提 

if (tempo > temp') PM,,=temp,SB,,=1 出 一 种 基于 滑动 窗口 管道 技术 的 流水 线 模式 ， 箭 头 表 示 算 法 的 

else =tempo,SB,,=0 执行 方向 。 当 第 i 次 FCP( 记 为 ) 完成 , 则 第 i7 次 TP ( 记 


其 中 : K 是 卷 积 码 的 约束 长 度 ， 分 支 度量 BM 等 于 信息 比特 和 ”为 TT，) 开 始 执行 , 结束 之 后 再 执行 第 i-2 次 DP( 记 为 D_ ，)。 
汉 明 距离 的 乘积 。 在 正 向 过 程 创 建 整个 网 格 图 之 后 ， 回 溯 过 程 。” 虽然 流水 线 模式 在 使 用 FPGA 时 可 以 达到 非常 高 的 译 码 吞吐 量 
开始 反 向 追踪 以 搜索 出 最 大 似 然 路 径 ， 该 路 径 的 所 有 SB 即 是 00， 但 是 它 并 不 适用 于 GPU。 为 了 充分 利用 GPU 上 的 算法 和 
最 后 译 码 得 到 的 比特 (DB )。 本 文 以 约束 长 度 为 7， 码 率 2 的， 元 多 的 特性 ， 本 文 提 出 了 基于 截断 重 有 技术 的 并 行 同步 模式 。 
卷 积 码 为 例 进 行 并 行 译 码 的 介绍 。 首先 ， 输 入 序列 被 截断 成 n 块 ， 每 一 个 块 尾部 都 有 一 部 分 长 度 
1.2 ”两 种 维特 比 译 码 算 法 的 执行 方式 与 下 一 个 块 重 琶 。 重 琶 的 尾 序列 将 用 于 执行 TP 来 找到 归并 的 
通过 对 维特 比 解码 算法 的 分 析 ， 可 以 发 现在 正 向 计算 中 ， 状态 。 然 后 将 所 有 块 中 的 FCP 并 行 执行 , 在 每 个 块 中 对 应 的 TP 
各 状态 之 间 的 ACS 操作 相互 独立 ， 因 此 这 些 操作 可 以 并 行 处 和 DP 可 以 独立 处 理 。 
理 。 然 而 从 时 间 轴 上 看 可 以 发 现 ， PM, , 是 受 PM,，,, 影响 ， 因 
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图 2 流水 线 式 、 并 行 同步 式 维特 比 译 码 


术 的 维特 比 译 码 算法 的 思想 也 包含 了 并 行 计算 的 思想 ， 因 此 只 
需要 在 该 译 码 算法 的 基础 上 , 通过 对 网 格 图 的 时 间 轴 进行 划分 ， 
2.1 基于 CUDA 平台 的 并 行 方式 将 每 个 子 网 格 图 可 以 分 为 两 个 阶段 :FCP 和 回溯 译 码 (TD) 阶 段 ， 

CUDA 架构 是 一 种 由 NVIDIA 推出 的 通用 并 行 计算 架构 ， ”其 中 包括 TP 和 DP。 图 3 描述 了 在 CUDA 上 实现 的 并 行 维特 
该 架构 使 GPU 能 够 解决 复杂 的 计算 问题 ， 而 基于 截断 重 倒 技 。” 比 译 码 算法 。 图 中 表示 第 i 个 截断 子 网 格 的 FCP; ACS,。 表 


2 基于 CUDA 的 Parallel-TOVDA 
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示 在 时 间 t 和 状态 * 下 的 加 比 选 操作 ， TD， 表 示 在 第 i 个 截断 
的 子 网 格 中 的 回溯 译 码 阶段 。 为 了 精准 地 译 码 ， 的 截断 长 度 
可 以 设置 为 2 +2L，。 其中: 二 是 TP 的 回溯 长 度 , 而 L， 是 


输入 序列 


在 FCP 中 ， 网 格 图 中 的 一 个 时 间 阶 段 的 每 个 ACS 操作 都 
被 分 配给 每 个 线程 ， 在 其 中 计算 BM、PM 和 SB 值 。 每 个 线程 
块 中 总 共有 1 024 个 线程 ， 可 以 进行 p 路 F 并 行 计算 ，p 
等 于 1024 除 以 2K-1。 连 续 时 间 阶段 的 网 络 在 每 个 线程 块 中 的 
* 享 内 存 中 执行 。 每 个 线程 分 别 将 PM 和 SB 值 写 入 共享 内 存 
和 全 局 内 存 中 的 对 应 地 址 。SB 值 由 在 网 格 图 中 的 所 有 路 径 组 
成 ， 但 这 对 于 共享 内 存 来 说 太 大 了 。 在 此 之 后 ， 线 程 间 轻 量 级 
的 同步 可 以 确保 所 有 线程 在 网 格 图 的 一 个 时 间 阶 段 中 完成 计算 
和 写 入 操作 ， 这 并 不 影响 性 能 。 在 同步 之 后 ， 可 以 在 共享 内 存 
中 获取 正确 的 输入 PM 值 。 然 后 在 相同 的 情况 下 对 各 个 时 间 阶 
段 进行 连续 的 计算 。 
在 FCP 完成 后 ,第 i 个 截断 子 网 格 中 的 TD 阶段 开始 在 7D， 
的 第 一 个 线程 中 执行 。 采用 分 治 法 找 出 中 的 所 有 第 L + 工 个 
状态 中 最 小 的 PM 值 ， 把 它 作 为 回溯 状态 。 在 回溯 位 后 就 可 
以 得 到 归并 的 状态 。 最 后 ， 得 到 的 元 个 比特 是 第 i 个 截断 子 网 
格 的 译 码 比特 。 这 就 是 所 谓 的 ParalleLTOVDA。 下 面 给 出 了 
Parallel-TOVDA 的 伪 代 码 。 

算法 : 基于 CUDA 的 Parallel-TOVDA 

初始 化 : 

输入 : 输入 比特 c、 汉 明 距 离 hd。 

输出 : 译 码 比特 DB。 

变量 PMk，nextPMk 用 于 对 R 线程 进行 分 配 共 享 内 存 ; 

PMR=6; nextPMk=0; p=16; i=0; BM1=0; BM2=0; s=0; 

和 迭代 ， 

1: for thread-block b 8 to [n/p| parallel do 


2 for thread in dimension-x tx 6 to p - 1 parallel do 
33 i=bxp+ tx; 
4: for thread in y dimension ty 6 to 63 parallel do 


5 j=ty% pas 
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DP 的 译 码 长 度 ,这样 ,输入 信号 序列 就 被 划分 为 长 度 为 2L， 子 
序列 ， 在 每 个 子 序列 尾部 添加 一 个 长 度 为 2L， 的 尾 序列 ， 这 个 
尾 序列 同时 又 是 下 一 个 子 序列 的 一 部 分 ， 用 于 执行 回溯 阶段 。 


图 3 基于 CUDA 的 Parallel-TOVDA 线程 安排 


6: forteo@toLly+Llt-1do 

了: Load ci+2t and ci+2t+1 from the global memory; 
8: Load hd2j and hd2j+1 from the constant memory; 
9 k= tx x 64+ ty; 

10: BM =ci+2t *hd2jBM2 =ci+2t+1 *hd2j+1; 

11s nextPMk = min{PM2j + BM1, PM2 j+1 + BM2}; 
125 SBt,ty = (PH2j + BH1 > PHzj+1 + BM2)?1 : 9; 
13: Store S Bt,ty in the global memory; 

14: Synchronize; 

15: PMR = nextPMR; 

16: end for 

18: end for 

19: Reduce and Fetch the state with minimum PM sin 


from PMa+Lg+Lt,0 to PMatL gtLt,63; 


26 : Ss = Smin; 

213 fortlg+Llt-1to060do 

22: j= sx2 2,; 

23: Load Ss Bt,s in the global memory; 
24: if t<Ly then 

25: DBt = SB+,s; 

26: end if 

27: Ss= (SBt,s = 0) ?27 :2j+1; 
28: end for 


29: end for 


36: end for 


2.2 合并 内 存 访问 技术 


在 算法 中 ， 每 个 线程 中 的 ACS 操作 需要 在 每 次 迭代 中 将 


SB 存储 到 全 局 内 存 中 ,从 而 产生 大 量 的 内 存 访问 开销 。 但 是 通 
过 合并 内 存 访 问 模 式 , 可 以 将 内 存 访问 的 总 时 间 减 少 16 倍 。 在 
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CUDA 中 ，half-warp 作为 调度 单位 ， 内 部 拥有 16 个 线程 ， 它 

可 以 启动 一 个 统一 的 合并 访问 内 存 ， 而 不 是 启动 16 个 单独 的 ton| 
内 存 访 问 。 这 种 合并 访问 模式 只 在 半 经 线 的 数据 必须 存储 在 连 人 
续 的 内 存 地 址 中 的 情况 下 才 可 以 使 用 。 因 此 ， 必 须 在 全 局 内 存 
中 对 SB 组 织 进行 调整 , 以 执行 合并 的 内 存 访问 。 在 编译 之 前 ， 
SB 必须 以 一 种 连续 的 方式 对 一 个 线程 进行 处 理 ， 以 便 在 64 个 
存储 在 一 起 的 状态 中 形成 SB。 然 后 ， 在 一 个 half-warp， 即 每 
16 个 线程 一 组 ， 可 以 通过 单一 的 连接 内 存 访问 ， 在 全 局 内 存 中 
执行 数据 交换 。 对 于 这 种 CUDA 特有 的 内 存 访问 技术 ， 这 里 不 


再 费 述 。 
3 ” 误 码 率 性 能 及 吞吐 量 it 
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SNR(dB) 


3.1 性 能 分 析 模 型 

处 理 译 码 的 GPU 频率 为 F， 流 处 理 器 数量 为 V， 。 算 法 
中 用 NN， 表示 状态 数 ，n 是 分 块 数 ， 执 行 周期 和 内 存 访 问 延 迟 ” 3.4 译 码 器 吞吐 量 
在 ACS 操作 时 分 别 为 Ec。， 和 Mc。，， 在 回溯 操作 时 分 别 为 为 了 测量 在 CUDA 上 提出 的 维特 比 译 码 算法 的 处 理 时 间 
Ej。 和 M;,，。 因 为 FCP 中 合并 内 存 访 问 ， 所 以 MAcs 需要 除 。 ”本文 使 用 NVIDIA 公司 提供 的 Profiler。 在 实验 中 , 总 译 码 位 数 
以 16。 由 于 在 TP 阶段 加 入 了 额外 的 长 度 为 L 的 比特 ， 所 以 在 是 16384, 被 分 成 n 个 截断 块 ,在 GPU 的 N, 个 线程 块 上 执行 ， 
可 漳 操 作 ,和 MX， 中 执行 和 内 存 访问 循环 包括 TP 和 DP 的 。 因此 周 定 工 为 14， 改变 不 同 的 N, 和 二 。 如 图 7 所 示 ， 发现 开 


部 分 。 该 算法 的 执行 时 间 7, 为 启 线程 块 越 多 ， 执 行 的 效率 越 高 ， 吞 吐 量 越 大 ， 当 运行 在 相同 


图 4 AWGN 信道 下 译 码 器 在 不 同志 情况 的 误 码 率 性 能 


示 ， 下 M 的 线程 块 情况 下 ， 工 设 为 64 可 以 获得 更 好 的 执行 效率 ， 吞 吐 
a Bar) NB tn)x(h tb) 家 Rs i 
FxNevoal 16 量 相对 较 高 。 纵 观 图 5， 当 工 为 64 并 开启 8 个 线程 块 并 行 执 


3.2 ”实验 设置 行 时 ( 白 线 交 点 ), CUDA 核心 的 计算 能 力 和 线程 块 间 共 享 内 存 
为 了 验证 基于 CUDA 的 Parallel-TOVDA 的 实用 性 ， 本 文 ”的 使 用 达到 了 平衡 。 
给 出 的 测试 场景 是 ， 输入 随机 生成 的 二 进 制 比特 流 ， 由 卷 积 编 
码 器 编码 ， 然 后 经 过 AWGN 通道 。 在 接收 机 中 ， 数 据 传递 到 
GPU 的 全 局 内 存 中 ， 执 行 Viterbi 解码 过 程 。 
在 测试 场景 中 ，GPU 为 GTX1050， 拥 有 640 个 CUDA 核 i 
心 ， 核 心 的 基础 频率 是 1.35 GHz， 可 动态 害 频 至 1.5 GHz。 具 和 
全 局 内 存 的 大 小 是 2GB。 表 1 列举 了 本 次 实验 的 关键 参数 设置 


情况 。 3 z 
表 1 测试 实验 关键 参数 设置 情况 本 
误 码 率 性 能 测试 实验 吞吐 量 性 能 测试 实验 0 
总 详 码 位 数 16384 eg 图 5 不 同 DP 长 度 和 线程 块 情况 下 的 运算 时 间 
L 0、 14、 28 14 
L, 64 32、64、128、256、512 3.5 性 能 比较 
N, 1、2、4、8、16、32 为 了 突显 Parallel-TOVDA 的 优点 , 本 文 将 实验 结果 与 文献 
[9,11] 进 行 对 比 ( 表 2)。 文 献 [9] 中 的 算法 利用 了 将 比特 序列 分 
3.3 译 码 器 误 码 性 能 制 成 多 个 块 的 方法 ， 将 这 些 块 被 分 布 到 与 本 文 相似 的 多 个 线程 
如 前 所 述 ， 表示 了 TP 的 长 度 ， 它 可 以 决定 解码 过 程 的 。” 块 中 。 然 而 在 回溯 阶段 ， 多 个 线程 块 的 所 有 路 径 都 被 合并 ， 并 


初始 状态 并 影响 维特 比 译 码 器 的 误 码 率 。 为 了 评估 译 码 器 的 。” 且 通过 一 个 线程 生成 解码 序列 。 本 文 提出 的 算法 是 一 种 完全 并 
BER 性 能 ,将 工 长 度 分 别 设置 为 0.14、28, 固定 二 长 度 为 64。 了 的 截断 重叠 维特 比 算法 。 整 个 网 格 图 被 分 割 成 多 个 子 网 格 图 ， 
最 终 性 能 指标 如 图 4 所 示 。BER 随 厂 的 增加 而 减 小 。 当 回溯 长 ”每 个 子 网 格 图 的 正 向 计算 和 回溯 独立 执行 。 性 能 比较 如 图 8 所 

上 


一 人 


度 越 高 , 译 码 器 的 BER 在 MATLAB 仿真 中 越 接近 理论 BER 的 示 。 该 维特 比 译 码 算法 的 峰值 吞吐 量 达 到 了 88.1 Mbps， 总 体 术 
性 能 ， 这 证 明了 本 文 的 译 码 器 是 实用 的 。 比 文 献 [9] 吞 吐 量 提高 了 1.3~3.5 倍 。 文 献 [12~14] 通 过 提高 
CUDA 核心 的 频率 和 数目 ， 在 原 有 实现 方式 的 基础 上 获得 了 吞 


录用 稿 


吐 量 的 提升 ， 甚 至 到 Gb/s 级 别 。 
表 2 不 同 线程 块 W, 时 译 码 器 吞吐 量 比较 /Mbps 


N, 1 2 4 8 16 32 
文献 [11] 0.9 1.8 4.1 7.6 14.8 28.7 
文献 [9] 27 47 8.6 12.3 15.1 29.4 

本 文 39 ,71 13.4 28.3 52.9 88.1 


图 6 更 直观 地 显示 了 本 文 所 设计 的 译 码 器 在 吞吐 量 上 的 巨 
大 优势 .性 能 优化 情况 如 下 : 当 线程 块 N, 设置 为 16 时 ,Parallel- 
TOVDA 相 比 文献 [9] 所 提出 的 译 码 器 在 吞吐 量 上 提高 了 3.5 倍 ， 
相 比 文献 [11] 提 高 了 3.6 倍 ;， 当 达到 88.1Mbps 峰值 吞吐 量 时 ， 
相 比 文献 [9] 和 [11] 提 高 了 3 倍 ; 当 仅 试 用 1 个 线程 块 〈N, =1) 
时 ， 相 比 文献 [9] 提 升 了 1.3 倍 。 这 说 明 在 该 算法 在 保证 纠 错 性 
能 前 提 下 , 最 大 限度 地 将 维特 比 译 码 的 结构 特性 和 CUDA 平台 
的 计算 特性 结合 ， 提 高 了 译 码 的 吞吐 量 ， 这 意味 着 该 算法 可 以 
在 同样 的 吞吐 量 要 求 下 ， 节 省 更 多 的 硬件 开销 。 
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6 不 同 线程 块 N, 时 译 码 器 的 吞吐 量 大 小 /Mbps 


4 ”结束 语 


本 文 提出 了 一 种 基于 CUDA 的 截断 重 亚 并 行 维特 比 译 码 
算法 。 将 维特 比 译 码 器 的 输入 比特 序列 划分 为 n 个 重 闪 的 截断 
块 , 分 布 在 GPU 上 的 多 个 进程 块 中 , 每 个 线程 块 可 以 对 多 个 截 
断 块 进行 并 行 处 理 。 在 每 个 截断 块 中 ， 正 向 计算 和 回溯 可 以 独 
立 执行 ， 从 而 最 大 限度 地 提高 GPU 的 并 行 能 力 。 实 验 表 明 ， 基 
于 CUDA 的 截断 重 县 维特 比 译 码 器 的 吞吐 量 可 以 达到 88.1 
Mbps， 相 对 于 文献 [9] 的 实现 有 1.3~3.5 倍 的 性 能 改进 。 如 果 对 
吞吐 量 有 更 高 的 要 求 ， 可 以 使 用 CUDA 核心 数目 更 多 、 频 率 更 
高 的 GPU 平台 ， 线 性 地 提高 吞吐 量 ， 很 轻易 就 可 以 达到 Gb/s 
级 别 的 吞吐 量 。 结 果 表 明 , 提出 的 维特 比 译 码 器 完美 匹配 CUDA 
平台 的 架构 特性 ， 能 够 在 保证 纠 错 能 力 的 同时 很 大 程度 上 提高 
了 译 码 吞吐 量 ， 可 用 于 基站 或 移动 基站 的 通信 。 
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